Stable Diffusionは3次元空間を理解している

https://gyazo.com/f363a66a03c296a0ea824269a6deef63

Stable Diffusionは深度情報などは与えず、二次元画像だけで学習させたにも関わらず3Dジオメトリに関する線形表現を持っていることが分かった

linear probingを使った検証

https://gyazo.com/a13e954da718851c443329f39bf3d3ff

Text-to-Image Generation with Interventionによる検証

https://gyazo.com/41acb3e6f93be44b92d1ac019cdc4230

通常の画像生成(上部)でlinear probingで前景マップ(db)を取得

(db)を使用して中間活性化を変更し、ピクセルの前景と背景のプロパティが新しい前景マップd’bに一致するように変更する

GANも同様の能力をもっていることはすでに示されているらしい